Dance Revolution: Long Sequence Dance Generation with Music via Curriculum Learning
https://youtu.be/P6yhfv3vpDI
Dancing to music is one of human's innate abilities since ancient times. In machine learning research, however, synthesizing dance movements from music is a challenging problem. Recently, researchers synthesize human motion sequences through autoregressive models like recurrent neural network (RNN). Such an approach often generates short sequences due to an accumulation of prediction errors that are fed back into the neural network. This problem becomes even more severe in the long motion sequence generation. Besides, the consistency between dance and music in terms of style, rhythm and beat is yet to be taken into account during modeling. In this paper, we formalize the music-driven dance generation as a sequence-to-sequence learning problem and devise a novel seq2seq architecture to efficiently process long sequences of music features and capture the fine-grained correspondence between music and dance. Furthermore, we propose a curriculum learning strategy to alleviate error accumulation of autoregressive models in long motion sequence generation, which gently changes the training process from a fully guided teacher-forcing scheme using the previous ground-truth movements, towards a less guided autoregressive scheme mostly using the generated movements instead. Extensive experiments demonstrate that our approach significantly outperforms the existing methods on automatic metrics and human evaluation.
音楽に合わせて踊ることは、古来より人間が持っている天性の能力の一つである。しかし、機械学習の研究では、音楽からダンスの動きを合成することは難しい問題です。最近では、RNN(リカレント・ニューラル・ネットワーク)のような自己回帰モデルを用いて、人間の動きのシーケンスを合成する研究が行われています。このような手法では、予測誤差が蓄積され、それがニューラルネットワークにフィードバックされるため、短いシーケンスが生成されることが多い。この問題は、長い動きのシーケンス生成ではさらに深刻になる。また、ダンスと音楽のスタイル、リズム、ビートの整合性を考慮したモデリングはまだ行われていない。本論文では、音楽駆動型ダンス生成をシーケンス間学習問題として定式化し、音楽特徴の長いシーケンスを効率的に処理し、音楽とダンスの細かい対応関係を捉えるための新しいseq2seqアーキテクチャを考案する。さらに、長い動きのシーケンス生成における自己回帰モデルの誤差蓄積を軽減するためのカリキュラム学習戦略を提案する。これは、学習プロセスを、完全にガイドされた教師強制型のスキームから、前のグランドトゥルースの動きを用いた教師強制型のスキームへと緩やかに変更し、代わりに生成された動きを主に用いたガイドの少ない自己回帰型のスキームへと変更するものである。広範な実験により、我々のアプローチが自動指標や人間の評価において既存の手法を大幅に凌駕することが実証された。